We present HARP (HAnd Reconstruction and Personalization), a personalized hand avatar creation approach that takes a short monocular RGB video of a human hand as input and reconstructs a faithful hand avatar exhibiting a high-fidelity appearance and geometry. In contrast to the major trend of neural implicit representations, HARP models a hand with a mesh-based parametric hand model, a vertex displacement map, a normal map, and an albedo without any neural components. As validated by our experiments, the explicit nature of our representation enables a truly scalable, robust, and efficient approach to hand avatar creation. HARP is optimized via gradient descent from a short sequence captured by a hand-held mobile phone and can be directly used in AR/VR applications with real-time rendering capability. To enable this, we carefully design and implement a shadow-aware differentiable rendering scheme that is robust to high degree articulations and self-shadowing regularly present in hand motion sequences, as well as challenging lighting conditions. It also generalizes to unseen poses and novel viewpoints, producing photo-realistic renderings of hand animations performing highly-articulated motions. Furthermore, the learned HARP representation can be used for improving 3D hand pose estimation quality in challenging viewpoints. The key advantages of HARP are validated by the in-depth analyses on appearance reconstruction, novel-view and novel pose synthesis, and 3D hand pose refinement. It is an AR/VR-ready personalized hand representation that shows superior fidelity and scalability.
translated by 谷歌翻译
Segmenting humans in 3D indoor scenes has become increasingly important with the rise of human-centered robotics and AR/VR applications. In this direction, we explore the tasks of 3D human semantic-, instance- and multi-human body-part segmentation. Few works have attempted to directly segment humans in point clouds (or depth maps), which is largely due to the lack of training data on humans interacting with 3D scenes. We address this challenge and propose a framework for synthesizing virtual humans in realistic 3D scenes. Synthetic point cloud data is attractive since the domain gap between real and synthetic depth is small compared to images. Our analysis of different training schemes using a combination of synthetic and realistic data shows that synthetic data for pre-training improves performance in a wide variety of segmentation tasks and models. We further propose the first end-to-end model for 3D multi-human body-part segmentation, called Human3D, that performs all the above segmentation tasks in a unified manner. Remarkably, Human3D even outperforms previous task-specific state-of-the-art methods. Finally, we manually annotate humans in test scenes from EgoBody to compare the proposed training schemes and segmentation models.
translated by 谷歌翻译
SMPL(SMPL)的参数3D身体模型仅代表最小衣服的人,并且很难扩展到衣服,因为它们具有固定的网格拓扑和分辨率。为了解决这些局限性,最近的工作使用隐式表面或点云来建模衣服。虽然不受拓扑的限制,但这种方法仍然很难为偏离身体的偏离的衣服建模,例如裙子和连衣裙。这是因为他们依靠身体来通过将衣服表面放置为参考形状。不幸的是,当衣服远离身体时,这个过程的定义很差。此外,他们使用线性混合剥皮来摆姿势,并将皮肤重量与下面的身体部位绑在一起。相比之下,我们在没有规范化的情况下对局部坐标空间中的衣服变形进行了建模。我们还放松皮肤重量以使多个身体部位影响表面。具体而言,我们用粗糙的阶段扩展了基于点的方法,该方法用学习的姿势独立的“粗大形状”代替了规范化,该方法可以捕获裙子(如裙子)的粗糙表面几何形状。然后,我们使用一个网络来完善该网络,该网络会渗透到粗糙表示中的线性混合剥皮权重和姿势依赖的位移。该方法适合符合身体并偏离身体的服装。我们通过从示例中学习特定于人的化身,然后展示如何以新的姿势和动作来展示它们的有用性。我们还表明,该方法可以直接从原始扫描中学习缺少数据,从而大大简化了创建逼真的化身的过程。代码可用于研究目的,可在{\ small \ url {https://qianlim.github.io/skirt}}中使用。
translated by 谷歌翻译
综合虚拟人类及其3D环境之间的自然相互作用对于众多应用程序(例如计算机游戏和AR/VR体验)至关重要。我们的目标是使人类与给定的3D场景进行互动,该场景由高级语义规格控制为动作类别和对象实例,例如“坐在椅子上”。将相互作用语义纳入生成框架中的主要挑战是学习一个共同表示,该表示有效地捕获了异质信息,包括人体的关节,3D对象几何以及相互作用的意图。为了应对这一挑战,我们设计了一种基于变压器的新型生成模型,其中铰接的3D人体表面点和3D对象共同编码在统一的潜在空间中,并且人与物体之间的相互作用语义是通过嵌入的。位置编码。此外,受到人类可以同时与多个对象相互作用的相互作用的组成性质的启发,我们将相互作用语义定义为不同原子动作对象对的组成。我们提出的生成模型自然可以结合不同数量的原子相互作用,从而无需复合相互作用数据即可合成组成的人类习惯相互作用。我们使用交互语义标签和场景实例分割扩展了Prox数据集,以评估我们的方法,并证明我们的方法可以通过语义控制生成现实的人类场景相互作用。我们的感知研究表明,我们合成的虚拟人类可以自然与3D场景相互作用,从而超过现有方法。我们将方法硬币命名,用于与语义控制的组成相互作用合成。代码和数据可在https://github.com/zkf1997/coins上获得。
translated by 谷歌翻译
在3D视觉中,视觉重新定位已被广泛讨论:鉴于预构建的3D视觉图,估计查询图像的6 DOF(自由度)姿势。大规模室内环境中的重新定位可实现有吸引力的应用程序,例如增强现实和机器人导航。但是,当相机移动时,在这种环境中,外观变化很快,这对于重新定位系统来说是具有挑战性的。为了解决这个问题,我们建议一种基于虚拟视图综合方法Rendernet,以丰富有关此特定情况的数据库和完善姿势。我们选择直接渲染虚拟观点的必要全局和本地特征,而不是渲染需要高质量3D模型的真实图像,并分别将它们应用于后续图像检索和功能匹配操作中。所提出的方法在很大程度上可以改善大规模室内环境中的性能,例如,在INLOC数据集中获得7.1 \%和12.2 \%的改善。
translated by 谷歌翻译
虽然从图像中回归3D人类的方法迅速发展,但估计的身体形状通常不会捕获真正的人形状。这是有问题的,因为对于许多应用,准确的身体形状与姿势一样重要。身体形状准确性差姿势准确性的关键原因是缺乏数据。尽管人类可以标记2D关节,并且这些约束3D姿势,但“标记” 3D身体形状并不容易。由于配对的数据与图像和3D身体形状很少见,因此我们利用了两个信息来源:(1)我们收集了各种“时尚”模型的互联网图像,以及一系列的人体测量值; (2)我们为3D身体网眼和模型图像收集语言形状属性。综上所述,这些数据集提供了足够的约束来推断密集的3D形状。我们利用几种新型方法来利用人体测量和语言形状属性来训练称为Shapy的神经网络,从而从RGB图像中回归了3D人类的姿势和形状。我们在公共基准测试上评估shapy,但请注意,它们要么缺乏明显的身体形状变化,地面真实形状或衣服变化。因此,我们收集了一个新的数据集,用于评估3D人类形状估计,称为HBW,其中包含“野生人体”的照片,我们为其具有地面3D身体扫描。在这个新的基准测试中,Shapy在3D身体估计的任务上的最先进方法极大地胜过。这是第一次演示,即可以从易于观察的人体测量和语言形状属性中训练来自图像的3D体形回归。我们的模型和数据可在以下网址获得:shapy.is.tue.mpg.de
translated by 谷歌翻译
基于图像的体积人类使用像素对齐的特征有望泛化,从而看不见姿势和身份。先前的工作利用全局空间编码和多视图几何一致性来减少空间歧义。但是,全球编码通常会过度适应培训数据的分布,并且很难从稀疏视图中学习多视图一致的重建。在这项工作中,我们研究了现有空间编码的常见问题,并提出了一种简单而高效的方法,可以从稀疏视图中对高保真体积的人类进行建模。关键思想之一是通过稀疏3D关键点编码相对空间3D信息。这种方法对观点和跨数据库域间隙的稀疏性很强。我们的方法的表现优于头部重建的最先进方法。关于人体的重建是看不见的受试者,我们还实现了与使用参数人体模型和时间特征聚集的先前工作相当的性能。 Our experiments show that a majority of errors in prior work stem from an inappropriate choice of spatial encoding and thus we suggest a new direction for high-fidelity image-based human modeling. https://markomih.github.io/keypointnerf
translated by 谷歌翻译
由于其捕获远程依赖性的能力,变压器在许多愿景任务中取得了成功。然而,它们的二次计算复杂性构成了将它们应用于需要密集预测的视觉任务的主要障碍,例如对象检测,特征匹配,立体声等。我们引入四叉树的关注,这降低了从二次到线性的计算复杂性。我们的Quadtree变压器构建令牌金字塔,并以粗糙的方式计算注意力。在每个级别,选择具有最高关注分数的顶部K补丁,使得在下一级别,仅关注对应于这些顶部K个补丁的相关区域内。我们表明Quadtree注意在各种视觉任务中实现了最先进的性能,例如,在SCANNET匹配上有4.0%的特征匹配,立体匹配的拖鞋约为50%,提高了Imagenet分类的14-1.5%,对Coco对象检测的提高1.2-1.8%,改进0.7-2.4%以前的最先进变换器的语义分割。该代码可在https://github.com/tangshitao/quadtreeeattention上获得}:htps://github.com/tangshitao/quadtreeattention。
translated by 谷歌翻译
人类抓握合成具有许多应用,包括AR / VR,视频游戏和机器人。虽然已经提出了一些方法来为对象抓握和操纵产生现实的手对象交互,但通常只考虑手动与对象交互。在这项工作中,我们的目标是综合全身掌握运动。鉴于3D对象,我们的目标是产生多样化和自然的全身人类动作,方法和掌握物体。这项任务是具有挑战性的,因为它需要建模全身动态和灵巧的手指运动。为此,我们提出了由两个关键部件组成的Saga(随机全身抓取):(a)静态全身抓取姿势。具体地,我们提出了一种多任务生成模型,共同学习静态全身抓姿和人对象触点。 (b)抓住运动infilling。鉴于初始姿势和产生的全身抓握姿势作为运动的起始和结束姿势,我们设计了一种新的联络感知生成运动infilling模块,以产生各种掌握的掌握运动。我们展示了我们方法是第一代生物和表达全身运动的第一代框架,该方法是随机放置并掌握未经看的对象的逼真和表达全身运动。代码和视频可用于:https://jiahaoplus.github.io/saga/saga.html。
translated by 谷歌翻译
我们的目标是填充数字环境,其中数字人类具有多样化的身体形状,永久地行动,并具有合理的身体场景接触。核心挑战是为多元化的3D体产生逼真,可控和无限长的动作。为此,我们通过体表标记提出生成的运动原语,缩短为伽马。在我们的解决方案中,我们将长期运动分解为运动原语的时间序列。我们利用身体表面标记和条件变化自动码器来模拟每个运动原语,并通过递归地实现生成模型来产生长期运动。为了控制达到目标的动作,我们应用一个策略网络来探索模型潜像,并使用基于树的搜索来保留测试期间的运动质量。实验表明,我们的方法可以产生比最先进的数据驱动方法产生更现实和可控的运动。利用常规路径发现算法,产生的人体可以在场景中长时间地实际地移动长距离。代码将用于研究目的:\ url {https://yz-cnsdqz.github.io/eigenmotion/gamma/}
translated by 谷歌翻译